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The invention concerns the analysis and synthesis of speech and more generally, speech coding and decoding. Since 
recognizing the speech of several different speakers is very difficult due to differences in pronunciation of the same 
phonemes by different speakers, the invention discloses a recognition system using portable cards, and, in particular, chip 
cards, in which the characteristic voice parameters of the card holder are recorded. These parameters are read by a reader 
(16), transmitted to a voice recognition machine which adapts its algorithms or processing circuits according to the content 
of the card in order to optimize recognition according to a given speaker. The recognition machine (10) can then operate, 
with the greatest reliability, a machine (12), according to a speech signal transmitted by a microphone (14). 
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Llnvention conceme Tanalyse et la synth^e de la parole^ 
et phjs g^n^ralement mfrne ie codage et le d6codage de la 
parole. 

Etant donn6 que la reconnaissance de parole multilocuteurs 
est tr6s difficile du fait des differences de prononciation des 
mdmes phonemes par des tocuteurs diff^rents, Unvention pro- 
pose un SYStSme de reconnaissance utilisant des cartes porta- 
tives. et tout particulidrement des cartes S puces, dans !es- 
quelles on enregistre des param^tres ceractgristiques de la 
voix du locuteur titulaire de ta carta Ces paramdtres sent lus 
par un iecteur 16, transmis d un appareil de reconnaissance de 
parole 10 qui adapte sas elgorithmes ou circuits de traitement 
en fonction du contenu de la carte pour optimiser la reconnais- 
sance en forKU'on d'un locuteur d^termin^ L'appareil de recon- 
naissance 10 peut alort commander avec une fiabiOt^ maxi* 
male une machine 12, en fonction d'un signal de parole 
transmis par un microphone 14. 
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4. 

APPAREIL DE TRAITEMENT D£ LA PAROLE 



L* Invention concerne 1* analyse et la synthase de la 
parole, et. plus generalement inSme le codage et le 
decodage de la parole. 

Les applications dans lesq[uelles on envisage de 
5 traiter electroniquement les signaux de voix humaine 
sont de plus en plus noBil^reuses. II y a d'abord la 
reconnaissance et la synthese de parole en vue de 
faciliter la communication homme-roachine qui se fait 
jusqu'lL maintenant principalement a travers un clavier 

10 de saisie- et un §cran de visualisation, ou S travers de 
boutons et manettes de ' commande. II y a aussi la 
reconnaissance de parole en vue de 1* identification 
d*une personne par ses caract§ristiques vocales. Et il y 
a 4galement des applications . dans lesguelles le 

15 traitement sert a comprimer les . informations §mises 
oralement pour les transmettre d une plus grande vitesse 
ou avec une plus faible bemde passante, etc. 

Mais le traitement de la parole est une operation 
tres difficile, a cause de la complexite des mecanismes 

20 physiologiques par lesquels la parole est produite et 
par lesquels elle est entendue et comprise* 

Le support de transmission de 1 ' information est une 
vibration acoustique de I'air. Cette vibration est 
constitu§e par une succession d'ondes acoustiques de 

25 formes complexes. Lcrsqu'on enregistre ces formes 
d'onde, on constate qu'il est pratiquement impossible, 
par simple observation visuelle, de faire un lien entre 
telle ou telle partie du diagranme et le son qui a §t€ 
prononc§. 

30 

II en r§sulte qu'il est trds difficile d'€tablir 
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des circuits felectroniques ou programmes de traitement 
de donnees qui seraient capables de reconnaitre autre 
chose que des sons isol6s tres simples. Les probl^es 
sont Sgalement diff iciles en synthase vocale si on veut 
5 reproduire des sons qui ressemblent suf fisamment 
fid^lement au langage humain. 

Pour donner une id^e plus precise des difficult^s 
rencontr^es, on va rappeler ci-dessous quelques notions 
relatives a 1 'analyse, la reconnaissance et la synthese 

10 de la parole. 

Les sons du langage peuvent etre §mis de plusieurs 
manieres : il y a d*abord une distinction entre les sons 
vois^s et les sons non voises. Les sons voises sont emis 
^ partir d*une vibration des cordes vocales et sont 

15 modules a travers le pharynx et la cavite buccale (et 
notamraent par la langue et les levres) ; certains sons 
utilisent ^galement la cavit€ nasale. Les sons non 
voises ne sont pas emis a partir des cordes vocales; ils 
sont directement produits a I'intSrieur de la cavite 

20 buccale. 

D* autre part, que ce soit parmi les sons voises ou 
les sons non voises, on peut faire la distinction entre 
les sons produits par des turbulences d'air (dans une 
ouverture §troite) , et ceux qui correspondent plutdt S 

25 un ^coulement regulier. Les consonnes sont en general 
produites par des turbulences. Les voyelles 
correspondent plutot a des ecoulements reguliers. 

Les' consonnes fricatives (s, f, z, v) sont 
produites respect ivement par un flux d'air dans 

30 l*intervalle §troit entre les dents (s, z) ou entre les 
ISvres (f, V). Les consonnes s et f ne sont pas voisees. 
Mais les consonnes z et v sont voisees. 

Les consonnes plosives font intervenir une 
occlusion complete du conduit vocal en un point ou un 
autre, suivie d'une liberation brusque de la pression 
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accumul^e dans le conduit. Le point de fenneture 
determine le son produit. Ce son peut §tre, la encore, 
vois§ ou non voisS. Les consonnes p (non vois6e) et b 
(vois§e) correspondent i une fenaeture des levres; t 
(non vois^e) et d (voisSe) correspondent S une occlusion 
par la langue dans la partie ant^rieure du palais. Les 
consonnes k (non vois6e) et g (vois§e) correspondent a 
une occlusion par la langue vers I'arriere du palais. 

On peut ainsi d6crire comment sont produits la 
plupart des phonemes correspondant a une langue donnee. 
Le phoneme est le plus petit element sonore* permettant 
de distinguer un mot d'un autre ou plus precisement de 
modifier sa signification. II n'y a gu^re que guelgues 
dizaines de phon&mes diffSrents dans une langue donnSe. 
On considdre qu»il y en a une quarantaine dans la langue 
fran9aise. 

Mais c'est unchiffre th§orique. Dans la pratique 
on s"aper9oit que les phonemes sont prononcis 
diff^remment selon les phondmes qui les pr§cddent ou les 
suivent. C^est le phenomene de coarticulation entre 
phonemes, qui complique s§rieusement les problemes de 
reconnaissance ou synthese car il multiplie par 4 ou 5 
le nombre de phonemes pratiquement -emis. Tl est 
d*ailleurs souvent plus simple de fonder la 
reconnaissance de parole ou la synthase non pas sur les 
phonemes mais soit sur des *'diphon€mes" qui sont des 
couples de phonemes associ^s incluant la transition 
entre ces phonemes, soit sur des "diphones" qui sont des 
segments sonorcs debutant au milieu d'lin phoneme et 
s*arr§tant au milieu du phoneme suivant (incluant done 
la transition entre deux phonemes mais pas la totality 
de chacun des deux phontoes) . 

L'oreille humaine les distingue tr^s bien les uns 
des autres, mais les formes d^onde acoustique qui les 
distinguent ne semblent pas etre suffisamment 
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caracteristiques pour qu'une machine puisse facilement 
les reconnaitre, siirtout dans tine parole en continu* 

Les ondes acoustiques correspondant aux voyelles 
ont un spectre de frequences plus simple et plus Stroit: 
5 que les consonnes. Les voyelles repr§sentent en effet 
plutat une partie stable du signal vocal, tandis que les 
consonnes representent plutdt des transitions. Les 
plosives par exemple representent des transitions 
brutales, avec un spectre de fr^cfuences trds large 
10 durant la transition . 

C*est pourquoi on a essay§ de proposer des methodes 
de traitement de la parole fondees essentiellement sur 
1' analyse frec[uentielle des signaux acoustiques. 

Par ces analyses frequentielles on arrive mieux a 
15 discerner des parametres correspondant aux dif£6rents 
phonemes ou diphones emis. 

A titre d< exemple, une methode d' analyse 
fr^quentielle qui a d^jS prouv§ son efficacite aussi 
bien en reconnaissance vocale qu'en synthase vocale est 
20 la methode des foxrmants. On va rappeler en quelgues 
paragraphes ce que sont les formants, pour mieux faire 
comprendre 1' invention, bien que 1* invention ne soit pas 
linitee aux syst^mes utilisant une analyse ou une 
synthase ^ formants. 
25 Les formants sont les frequences correspondant S 

des pics d'energie du signal vocal : on voit clairement 
que le spectre de frequences resultant de 1' analyse du 
signal acoustique correspondant a une voyelle est un 
spectre comprenant des creux et des bosses. Les bosses 
30 sont les formants; et on distingue en general plusieurs 
formants successifs dans le spectre correspondant S un 
phoneme determine. 

Les formants sont reperes par leur position dans le 
spectre de frequences. On parlera de premier f ormant 
pour le pic de plus basse frequence, de deuxidme f ormant 
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poiir le pic suivant, etc. 

Ces pics correspondent physiquenent S des 
resonances de la cavite buccale, et la parole humaine 
consiste justement a moduler la forme de la cavity 
5 buccale de mani^re a modifier les differentes frequences 
de resonance de cette cavity. 

II y a un lien direct entre la prononciation d'un 
phoneme et la forme du conduit vocal : 1« emission du 
phoneme est en effet liee S des positions bien precises 

10 des diffirents §l€ments mobiles de la cavity buccale 
(position des l§vres, de la langue, du voile dii palais, 
etc.); et il y a un lien entre les frequences de formant 
et la forme du conduit vocal; on comprend done qu'il y a 
aussi un lien direct entre un phoneme ^mis et les 

15 frequences de formant dStect^es dans le spectre de 
frequences du signal acoustiqu'e correspondant a ce 
phoneme. 

L' analyse et la synthase a formants sont fondes sur 
cette notion. Effectivement, on constate que la presence 

20 de certains formants est tout-a-fait caracteristique de 
1* emission de tel ou tel phoneme. Pour les voyelles, 
dont le spectre de frequences est relativement stable, 
on peut trds bien caracteriser une voyelle determinee 
par la position (sur I'axe des frequences) des trois 

25 premiers formants, c ' est-a-dire des trois premiers pics 
du spectre du signal acoustique correspondant. 

A titre indicatif, on peut donner I'exemple 
suivant: la voyelle A est un signal acoustique dont le 
premier formant est situs entre 500 et 800 hertz, le 

30 deuxiSme est situe entre 1000 et 1600 hertz mais n*est 
pas ecarte du premier de plus .de 600 a 900 hertz, et le 
troisidme formant est situ€ entre 2300 et 3200 hertz. 

Un autre exemple : la voyelle I aurait un premier 
formant entre 200 et 400 hertz, un deuxieme formant 
situe entre 2100 et 2400 hertz, mais espace d'au moins 
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2000 hertz du premier. Le troisiime formant est a une 
frequence plus elevee encore. 

Avec xin vecteur mathematique compost de trois 
nombres qui sont les frequences des trois premiers 
5 formants on peut assez bien caract^riser toutes les 
voyelles et certaiiies consonnes. Pour d'autres consonnes 
1 'utilisation des formants est plus malais^e, inais 
d'autres methodes peuvent etre utilisees, et notanunent 
une ivaluation du sens et de la rapidity de variation 

10 des frequences de formant dans les diphones comportant 
ime transition par consonne. 

Cependant, un probleme supplementaire vient de la 
diversite des prononciations des in§mes phonemes par des 
personnes differentes. L'oreille humaine r§tablit 

15 automatiquement la signification du phoneme, m§me 
prononc€ par plusieurs personnes differentes. Mais une 
machine de reconnaissance vocale confrontee a plusieurs 
vecteur s de formants aura beaucoup de mal a reconnaltre 
ces differents vecteurs comme representant un seul et 

20 raeme phoneme si les vecteurs sont assez differents les 
uns des autres du fait qu*ils ^manent de personnes 
differentes. C'est d'ailleurs d*autant plus vrai qu'on a 
d§jS envisage de r^aliser des machines d' identification 
de personnes dont le fonctionnement repose sur -la 

25 reconnaissance yocale, ce qui montre que dans une 
certaine mesure il peut y avoir des differences tres 
signif icatives dans 1' emission des memes phonemes par 
des personnes differentes. 

A titre d« example, la figure i represente un 

30 tableau schematique des zones de prononciation . de 
differentes voyelles phonetiques. Les lettres entre 
crochets representent des phonemes usuels en fran^ais, 
selon le code de phonetique de 1 'Association 
Internationale de Phonetique. Le tableau est un 
diagramme frequentiel representant les zones de valeur 
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du premier forxnant (en ordonn§e) et du deuxidme formant 
(en abscisse) . On voit notaminent: que certaines zones se 
recoupent, ce qui veut dire que le merae son emis par 
deux personnes diff§rentes peut correspondre a deux 
phonemes de signification -dif ferentes. Et plus 
generalement., les zones sont assez proches les unes des 
autres de sorte qu»il peut Stre difficile h une machine 
de reconnaltre les phonemes presents dans la parole 
humaine . 

lies machines de reconnaissance vocale proposees 
jusqu*a maintenant sont habituellement capables de 
reconnaltre seulement un petit nombre de mots isol§s, 
prononcSs par un locuteur bien d§termin§ qui a 
enregistre dans la machine les mots a reconnaltre (qu'il 
a prononce lui^roeme) . 

On a propose de rendre ces machines capables de 
reconnaltre les m§mes mots, prononc§s - par plusieurs 
locuteurs diffSrents. Mais alors, le passage d'un 
locuteur a un autre n§cessite d'abord une phase 
d'apprentissage de la machine : le deuxidme locuteur 
doit prononcer devant la machine la succession des 
diff brents mots qu'elle doit pouvoir reconnaltre, de 
maniere que la machine enregistre en m6moire la maniere 
dont ces mots sont prononc^s, et qu'elle puisse ensuite 
les reconnaltre, Cette phase d'apprentissage est tres 
lourde; d'autant plus lourde que la machine doit pouvoir 
reconnaltre plus de mots, di elle doit reconnaltre 1000 
mots, il faudra les prononcer tous; 11 faudra m§me 
peut-§tre les prononcer chacun plusieurs f ois pour 
€tablir une prononciation moyenne (car la prononciation 
d*un mot par une personne n'est pas quelque chose de 
fig§ et invariable). Pendant la phase d'apprentissage, 
la machine sera indisponible pour ex§cuter sa fonction 
de reconnaissance; I'op^ateur sera aussi contraint de 
r^server un temps pour cette operation. Mais cette 
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operation est a priori indispensable car la probability 
est trds faible pour qua la machine reconnaisse d'une 
mani^re f iable las mots prononc^s peir un locuteur autre 
que celui qui a enregistr€ les mots de reference. 
5 II est inutile de priciser que si la machine est 

destin^e par exemple S une utilisation par le public 
dans un lieu public, il est hors de question de proceder 
^ une phase d ' apprentissage pour chaque utilisateur qui 
se presente devant la machine. On peut penser par 

10 exemple a une cabine telephonique • dans laquelle la 
composition du num§ro appel^ est faite oralement. Pour 
de telles machines, on est actuellement oblig§ de 
limiter au maximum le nombre de mots a reconnaitre, pour 
augmenter la certitude de reconnaitre le mot prononcS 

15 quelle que soit la personne qui le prononce. 

La presente invention a entre autres pour but de 
proposer un moyen simple permettant de rendre plus 
facile I'utilisation d*une machine de reconnaissance par 
plusieurs locutcurs diff brents, sans reduire 

20 excessivement les possibilites de la machine. 

Un autre but de 1" invention est de proposer un 
moyen simple permettant d*am§liorer la synthase vocale 
en adaptant aussi Stroitement que possible la voix 
synthetis§e a la voix d'un locuteur bien determine, de 

25 sorte que par exemple si la voix d'un locuteur est 
codee, puis tr£msmise sur une ligne telephonique, puis 
resynth€tis§e avant d^etre restitute H un auditeur, la 
voix synthetisee puisse se rapprocher aussi pres que 
possible de la voix du locuteur initial. 

30 Pour atteindre ces buts, la presente invention 

propose un systeme de traitement de parole comprenant un 
apparel 1 de codage ou decodage de parole adapte a un 
codage ou un decodage mult i locuteur s, caracterise en ce 
que des peurametres sp§ci£iques d'un locuteur determine 
sont contenus dans une carte portat ive personnel le que 



2642882 



9 

le locuteur conserve avec soi, le systeme comportant un 
lecteur de carte adapts a lire le contenu de la carte et 
a coimnuniquer ce contenu a I'appareil de codage ou 
d^codage, pour !■ adapter instantan^ment, sans phase 
5 d^apprentissage, i ce locuteur. 

On comprend qu'avec ce systeme, on peut aller 
jusqu'a installer dans des lieux publics des machines 
complexes utilisant la reconnaissance ou la synthese de 
parole, et que toute personne possedant une carte 

10 personnelle contenant les paranStres propres de sa voix, 
pourra communiquer avec cette machine ou H travers cette 
machine, alors qu'elle ne pourrait le faire autrement. 

La carte pourrait contenir sous forme de donn^es 
codSes une prononciation d*un certain noinbre de mots par 

15 le titulaire de la carte (autant de mots que la machine 
doit pouvoir reconnaitre ou synth§tiser par exemple) . 
Mais il est plus avantageux que la carte contienne 
plutdt des parametres de la voix independamment . des mots 
a reconnaitre ou synth§tiser, car cela §largit les 

20 possibilit€s de reconnaissance ou synthese. 

Les parametres enregistr&s dans la carte peuvent 
alors etre des signaux electriques codes representant 
les formes d'onde temporelle ou les spectres de 
frequence de phonemes ou dijphonemes ou diphones 

25 prononc^s par le titulaire de la carte, Mais on 
pr^fSrera utiliser comme param&tres des vecteurs 
correspondant S ces phonemes ou diphondmes ou diphones, 
par exemple des vecteurs de trois ou quatre formants; 
chaque vecteur de trois ou quatre formants comprendra 

30 done trois ou quatre valeurs de friquences (ou plus 
vraisemblablement trois ou quatre gammes de frequences) 
representant un phoneme ou diphondme ou diphone 
determine. Ces vecteurs seront stockes dans la carte, et 
transf^res S la machine au moment de 1' utilisation, en 
remplacement des vecteurs que la machine aura pu 
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recevoir pr^cedemment lors de 1» utilisation par iin autre 
locuteur disposant d'une autre carte personnelle. 

On comprendra que si les formants semblent etre les 
vecteurs les plus coxninodes pour representor les 
5 voyelles, d*autres paran^tres existent et peuvent §tre 
stock§s pour d'autres phonSnes, diphonSmes ou diphones. 
Notaimnent, les conisonnes ou les diphones incluant des 
consonnes s ' exprimeront plus facilement par des 
parametres relatifs a la maniere dont les formants 

10 varient: chute plus ou mo ins rapide du premier formant 
et simultanSment mont€e plus ou moins rapide du 
deuxieme, etc. 

Des coefficients de fonctions de transfert 
§chantillonn€es (fonction de transfert en 2) pourraient 

15 €galement etre stock§s comme parametres de la voix dans 
une carte personnelle portative. 

La carte pourr^ait etre une carte i piste 
magnetique, ou optique; mais elle sera de preference une 
carte ^ puce incorporant une puce de circuit-integre 

20 avec notamment une m§moire non volatile contenant les 
paramdtres personnels de la voix. La carte peut §tre 
aussi un autre support d' information portable tel que 
par exemple : cartes magnetiques a haute density de 
stockage/ dont la surface magnetique couvre la totalite 

25 ou la quasi-totalite d^une des faces; m^moire de 
stockage de type EPROH ou EEPROM ou RAM non-volatile 
stockee dans un boitier de forme trds compacte et 
facilement transportable; cl§s a puce n'ayant pas 
sp^cialement la forme d<une carte plate, etc. 

30 

D'autres caracteristiques et avantages de 
1' invention appeiraltront a la lecture de la description 
qui suit et qui est faite en r§f§rence aux dessins 
annexes dans lesquels : 
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- la figure 1 , d§ja decrite, represents un 
diagramme de position de divers phonemes dans I'espace 
des f ormants (deux premiers f ormants) ; 

- la figure 2 represente scheroatiquement une 
5 application de 1* invention H la commande vocale d'une 

machine; 

- la figure 3 represente schSmatiquement une 
application de 1» invention aux communications 
tei^phoniques . 

10 

Une premiSre application de 1» invention est la 
reconnaissance de la parole, telle qu'on peut I'utiliser 
par exemple pour la commande d'un robot, d'une machine 
industrielle, d'un vehicule, etc., ou, dans une 

.15 application plus sophistiguee, pour une machine ^ dieter 
ou une machine S traduire. 

La figure 2 schematise cette application dans le 
cas de la commamde d'un robot. Un appareil de 
reconnaissance 10 est connects a un robot industriel 12 

20 potur lui fournir des ordres de commande de marche, 
d* arret, de rotation, etc. I#* appareil de reconnaissance 
est couple k un microphone 14 de sorte que les ordres de 
commande peuvent etre donnes oralement sous la forme de 
mots simples tels que ''marche", "stop", "droite", 

25 "gauche", etc. L' appareil est par ailleurs couple S un 
lecteur de carte i puces 16 dans lequel on peut 
introduire une carte a puce 18 qui contient dans une 
memoire non volatile (memoire EPROM ou EEPROM) des 
donnees . personnalisees relatives ^ la voix d'un locuteur 

30 titulaire de cette carte. 

Lors du fonctionnement, .les donnees de la carte 
sont d'abord chargees dans 1' appareil de reconnaissance; 
ces donnees servent a modifier soit des configurations 
de circuits electroniques dans 1» appareil, soit des 
algorithmes de reconnaissance utilises dans 1' appareil. 
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Les configurations modifi6es ou les algorithines modifies 
sont tels que I'appareil soit alors adapts de inani&re 
optimale a la reconnaissance des mots ou phrases 
prononc§s par le locuteur titulaire de la carte. 
5 Par exemple, les modifications d'algorithme peuvent 

consister en modifications des valeiirs moyennes et 
valeurs limites des frequences de formants pour chaque 
phoneme ou diphondme* ou diphone susceptible d'etre 
prononc^; ou encore des modifications de coefficients de 

10 polynomes dans des algorithmes de calcul fondes sur la 
transformee en z des signaux acoustiques ^chantillonn^s. 
Des modifications de configurations de circuits 
61ectroniques po\irraient par exemple consister en 
modifications de valeurs de capacites (par commutation 

15 d* inter rupteurs) dans des filtres a capacites commut6es 
utilises pour determiner des frequences de formants. 

Selon la sophistication de l*appareil de 
reconnaissance 10, on pourra reconnaitre des mots ou 
phrases plus ou moins complexes. Si I'appareil 10 est 

20 tr^s performant (et ses performances vis-a-vis de 
locuteurs multiples seront considerablement ameliorees 
par 1 • invention) , on peut envisager que la machine 12 
comraandee soit une machine de traitement de texte, voire 
meme une machine de traduction automatique. Cela suppose 

25 bien entendu que l*appareil de reconnaissance soit 
capable de reconnaitre noh pas seulement des mots isol€s 
ma is des phrases continues. 

Pour le choix des parsuadtres que I'on peut inscrire 
dans la carte pour representor de manidre personnalisSe 

30 la voix du titulaire de la carte, on pourra util'iser 
d*une maniere g§nerale les theories de reconnaissance et 
synthese de la voix telles qu'elles ont ete formulees 
jusqu'a maintenant. On trouvera une indication des 
methodes mathSmatiques permettant de faire ces choix 
dans le traite de Ren§ Boite et Murat Kunt : "Traitement 
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de la parole", complement au Traits d' Electricity, 
publie aux Presses Polytechnigues Rdmandes, ainsi que 
les ouvrages r€f6renc§s dans la bibliographie de ce 
traite. 

Une autre application de 1' invention est 
representee i la figure 3. Dans cette application, on 
cherche a coder le signal de parole Smis sur une ligne 
telephonique, pour comprimer le signal et ainsi limiter 
le debit d' informations utile pour une communication. 
Pour cela, on code le signal regu par le microphone du 
combine teiephonigue; le codage est tin cbdage phonetigue 
au lieu d'etre un codage numerique des formes d'onde du 
signal de parole : on code la parole en la dedomposant 
en phonemes ou diphones successifs; c*est done une 
operation de reconnaissance de parole. Puis on envoie 
sur la ligne teiephonigue des vecteurs successifs de 
donnees, chague vecteur comportant plusieurs donnees 
relatives au phoneme qui vient d'etre prononce dans le 
combine. A la reception, on reconvert it les vecteurs de 
dozmees en phonemes; c*est une operation de synthese de 
parole. La compression realisee peut etre tres 
importante : on peut envisager de limiter S 2 kilobits 
par seconde la quantite de donnees necessaire pour 
transmettre une conversation normale. En effet, le 
nombre de phonemes emis ne depasse*pas une dizaine par 
seconde. On dispose done de 200 bits pour coder chaque 
phoneme ou diphone ainsi quB la prosodie (c*est-3-dire 
la meiodie engendree par la variation de la frequence 
f ondamentale des cordes vccalcs au cours de la phrase) . 

Dans cette application, on utilisera selon 
1* invention un premier codeur/decodeur 20 interpose 
entre un premier appareil teiephonigue 22 et une ligne 
teiephonigue numerique 24. Ce premier codeur a pour 
fonction de coder la parole emise et de decoder la 
parole re9ue. 11 est couple a un premier lecteur de 
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cartes a puces 26 dans leguel on pourra introduire une 
carte 28 comportant les donnees personnalisees sur la 
voix de la personne qui telephone. On utilisera aussi un 
deuxidme codeur/dScodeur 30 semblable au premier , 
5 raccorde a !• autre bout de la ligne 24, interpos€ entre 
la ligne et un deuxi^me appareil t€l€phonique 32. Le 
deuxi^e codeur/decodeur est aussi couple a un deuxieme 
lecteur de cartes 36 dans lequel on peut inserer luie 
carte 38 comportant les donnees personnalisees relatives 

10 k la voix du correspondant S 1' autre bout de la ligne. 

Les codeur/d^codeurs, qui soht en fait des 
appareils complets de reconnaissance et synthese vocale, 
regoivent les donnees contenues dans les deux cartes, de 
sorte que la 'partie codage est adaptee a la 

15 reconnaissance de la voix de la personne situee au meme 
bout de la ligne que le codeur/decodeur, alors que la 
partie d^codage est adaptee a la synthase de la voix de 
. la personne situee a 1» autre bout de la ligne. 

On pr€voit done en debut de conversation 

20 t€l§phonique un protocole d*echanges de donnees pour 
envoyer dans les codeurs/decodeurs les donnees qui 
conviennent. Puis la conversation peut avoir lieu : 
I'une des personnes parle; sa voix est convertie en 
phonemes cod6s, par le codeur qui a ete specialement 

25 adapts h la voix du locuteur; elle est envoyee sur la 
ligne; elle est regue par le d§codeur a 1' autre bout de 
la ligne. Le dScodeur a 6t§ lui aussi adapts a la voix 
du meme locuteur; il synthetisera done d'une maniere 
optimale la voix de ce locuteur avant de la transmettre 

30 a I'ecouteur du poste telephonique. De meme pour 1' autre 
locuteur, codage et d§codage . sdnt spicialement adapt^s ^ 
sa voix de sorte qu'a 1' autre bout de la ligne le 
correspondant recevra une voix synth^tis^e d'une manidre 
per sonna 1 isee . 

Dans une autre application encore, on cherche a 
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interroger par tel§phone une base de donn^es. 

interrogation est faite par la parole et non par 
1« intermedia ire d*un clavier. Un exemple est la 
reservation tSlephonigue de transports aSriens. 
L*utilisateur dispose, cosime dans 1* application 
pr§c§dente, d*un appareil t^l^phonigue auquel est 
associe un lecteur de carte; la carte contient les 
parametres de la voix de son titulaire. Les param^tres 
peuvent §tre utilises de deux mcUiidres : d*une part ils 
peuvent 3tre envoy ^s sur ' la ligne titre d' elements 
d» identification d'un' titulaire autoris€; si les 
parametres ne sont pas ceux d'un titulaire autorise, la 
base de donnees n'est pas rendue accessible; d' autre 
part, apres que les parametres de la voix a lent ete 
transmis vers la base de donnSes, un syst^me ' de 
reconnaissance de parole utilise ces paramdtres pour 
s' adapter au mieux ^ la voix de celui qui va parler sur 
la ligne telephonique. L'utilisateur peut alors parler; 
sa voix est transmise normalement . sur la ligne 
(contrairement Sl 1* application precedente oO elle est 
cod^e en vue d*une reduction du dSbit) ; une analyse de 
parole est faite a 1*^ autre bout de la ligne, adapt§e a 
la voix du locuteur, pour determiner par machine le 
message transmis et instaurer le dialogue homme-machine 
via la ligne telephonique. 

Dans toutes les applications, on pr§voira de 
preference que les parsunfetres personnels de la voix, 
sont inscrits dans la carte d'un titulaire par une 
machine specialis§e dont la fonction principale est de 
determiner et enregistrer ces parametres. Le titulaire 
de la carte devra a cet effet prononcer devant la 
machine un certain nombre de mots caracteristiques qui 
serviront S faire cette determination. 
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REVENDICATIONS 

1. Systeme de traitement: de la parole, comprenant 
un appareil de codage ou d§codage de parole adapts a un 
codage ou un d§codage multilocuteurs , caract§rise en ce 
que des peararndtres specif iques de la voix d'un locuteur 
d§teniiine sont contenus dans une cart:e portative 

5 personnelle que le locuteur conserve avec soi, le 
systeme conportant un lecteur de carte adapte a lire le 
contenu de la carte et ^ communiguer ce contenu i 
1' appareil de codage ou d^codage pour 1' adapter 
instantaniment, sans phase d*apprentissage, a ce 
10 locuteur. 

2. Systdne de traitement de * parole selon la 
revendication 1, caract§rise en ce que les pareimetres 
sp6cif iques du locuteur comprennent des vecteurs de 
donnees acoustiques correspondant a des phonemes ou 

15 diphondmes ou diphones, tels qu'ils sont prononces par 
le locuteur titulaire de la carte. 

3. Systdme de traitement de parole selon la 
revendication 2, caracteris€ en ce que chaque ' vecteur 
est constitue par un ensemble de donn§es acoustiques, 

20 parmi lesquelles on trouve des valemrs de frequence de 
formants correspondant a un phoneme ou diphon.eme ou 
diphone tel que prononce par le locuteur titulaire de la 
carte. 

4. Systeme de traitement de parole selon l*une 
25 des revendications la 3, caracterise en ce que les 

parametres specifiques contenus dans la carte 
comprennent des donnees relatives aux variations de 
frequence de formants correspondant a des phonemes ou 
diphondmes ou diphones determines. 
30 5. Systeme de traitement de parole selon I'une 

des revendications la 4, caracterise en ce que les 
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paramdtres contenus dans la carte comprennent. des 
coefficients de fonctions de transfert gchantillonnees 
(fonction de transfert en 2) de signaux acoustiques 
correspondant a des phonemes ou diphon^mes ou diphones 
5 prononc^s par le titulaire de la carte. 

6. Systdme de traitement de parole selon I'une 
des revendications 1^5, caract€ris^ en ce que la carte 
est une carte a piste inagn§tique, ou optique, ou de 
preference une carte d puce incorporant une puce de 

10 circuit-int^gre avec notamment une merooire non volatile 
contenant les param&tres personnels de la voix. 

7. Systeme de traitement de parole selon I'une 
des revendications l a 5, caract§rise en ce que la carte 
est line carte magn§tique a haute densite de stockage 

15 dont la surface magnetique couvre la totalite ou la 
quasi totality d'une face, ou une cle 3 circuit integre 
n'ayant pas sp§cif iquement une forme de carte plate. 

8. Systeme de traitement de parole selon I'une 
des revendications 1 a 7, caracterise en ce qu'il 

20 comprend un appareil de codage et d^codage phonetique de 
parole interpose entre un appareil t§l§phonique et une 
ligne t€16phonique, et capable de transmettre 
success ivement sur la ligne des vecteurs de donnees 
correspondant a une succession de phonemes ou diphonemes 

25 ou diphones, et un lecteur de carte, 1' appareil de 
codage et d€codage 6tant apte k adaptei^ sa fonction de 
codage en fonction de parametreis personnels de voix 
contenus dans une carte introduite dans le lecteur, et 
1' appareil etant apte par ailleurs § adapter sa fonction 

30 de d§codage en fonction de parametres personnels de voix 
re9us de la ligne t§lephoniques. 

9. Syst&me de traitement de parole selon I'une 
des revendications 1 a 7, caracterise en ce qu'il 
comporte un appareil telephonique couple une ligne 
tel^phonique, et un lecteur de carte associe a 
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I'appareil, des moyens pour transmettre sur la ligne les 
parametres de la voix contenue dans la carte, et un 
systeme de reconnaissance de parole £i 1' autre bout de la 
ligne pour dans un premier temps recevoir de la ligne 
les dits parametres et dans un deuxieme temps recevoir 
un signal de parole en provenance de I'appareil 
tSl^phonique, le systeme de reconnaissance de parole 
etant apte a adapter son fonctionnement en f onction des 
parametres de voix re9us. 
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